22 settembre 2025Italiano

Guida all'unione e al join di DataFrame con Python Pandas. Esplora inner, outer, left, right join e offre esempi pratici per l'analisi dati globale.

Unione di DataFrame con Python Pandas: Padroneggiare le Strategie di Join per l'Analisi dei Dati

La manipolazione dei dati è un aspetto cruciale dell'analisi dei dati, e la libreria Pandas in Python fornisce strumenti potenti a questo scopo. Tra questi strumenti, l'unione e il join di DataFrame sono operazioni essenziali per combinare dataset basati su colonne o indici comuni. Questa guida completa esplora diverse strategie di join di DataFrame in Pandas, fornendoti le conoscenze per combinare e analizzare efficacemente dati da diverse fonti.

Comprendere l'Unione e il Join di DataFrame

L'unione e il join di DataFrame implicano la combinazione di due o più DataFrame in un singolo DataFrame basato su una colonna o un indice condiviso. La differenza principale tra `merge` e `join` è che `merge` è una funzione della libreria Pandas e tipicamente unisce i DataFrame su colonne, mentre `join` è un metodo di DataFrame che unisce i DataFrame principalmente sugli indici, anche se può essere usato anche con le colonne.

Concetti Chiave

DataFrame: Strutture di dati etichettate bidimensionali con colonne di tipi potenzialmente diversi.
Colonne/Indici Comuni: Colonne o indici che condividono lo stesso nome e tipo di dati tra i DataFrame, servendo come base per l'unione/il join.
Tipi di Join: Diverse strategie per gestire le righe non corrispondenti durante il processo di unione/join, inclusi inner, outer, left e right join.

Unione di DataFrame con `pd.merge()`

La funzione `pd.merge()` è lo strumento principale per unire i DataFrame basandosi sulle colonne. Offre un modo flessibile per combinare i dati basandosi su una o più colonne comuni.

Sintassi

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

Parametri

left: Il DataFrame di sinistra da unire.
right: Il DataFrame di destra da unire.
how: Il tipo di unione da eseguire ('inner', 'outer', 'left', 'right'). Il valore predefinito è 'inner'.
on: Il nome della/e colonna/e su cui eseguire il join. Queste devono essere presenti in entrambi i DataFrame.
left_on: Il nome della/e colonna/e nel DataFrame di sinistra da usare come chiave/i di join.
right_on: Il nome della/e colonna/e nel DataFrame di destra da usare come chiave/i di join.
left_index: Se True, usa l'indice del DataFrame di sinistra come chiave/i di join.
right_index: Se True, usa l'indice del DataFrame di destra come chiave/i di join.
sort: Ordina il DataFrame risultante lessicograficamente in base alle chiavi di join. Il valore predefinito è False.
suffixes: Una tupla di suffissi stringa da applicare ai nomi delle colonne sovrapposte. Il valore predefinito è ('_x', '_y').
copy: Se False, evita di copiare i dati nel nuovo DataFrame quando possibile. Il valore predefinito è True.
indicator: Se True, aggiunge una colonna chiamata '_merge' che indica la fonte di ogni riga.
validate: Controlla se l'unione è del tipo specificato. "one_to_one", "one_to_many", "many_to_one", "many_to_many".

Tipi di Join Spiegati

Il parametro `how` in `pd.merge()` determina il tipo di join eseguito. I diversi tipi di join gestiscono le righe non corrispondenti in modi diversi.

Inner Join

Un inner join restituisce solo le righe che hanno valori corrispondenti in entrambi i DataFrame basati sulle chiavi di join. Le righe con valori non corrispondenti sono escluse dal risultato.

Esempio:

Considera due DataFrame:

            import pandas as pd

# DataFrame 1: Customer Orders
df_orders = pd.DataFrame({
 'order_id': [1, 2, 3, 4, 5],
 'customer_id': [101, 102, 103, 104, 105],
 'product_id': [1, 2, 1, 3, 2],
 'quantity': [2, 1, 3, 1, 2]
})

# DataFrame 2: Customer Information
df_customers = pd.DataFrame({
 'customer_id': [101, 102, 103, 106],
 'customer_name': ['Alice', 'Bob', 'Charlie', 'David'],
 'country': ['USA', 'Canada', 'UK', 'Australia']
})

# Inner Join
df_inner = pd.merge(df_orders, df_customers, on='customer_id', how='inner')
print(df_inner)

Output:

             order_id  customer_id  product_id  quantity customer_name country
0         1          101           1         2         Alice     USA
1         2          102           2         1           Bob  Canada
2         3          103           1         3       Charlie      UK

In questo esempio, l'inner join combina i DataFrame `df_orders` e `df_customers` basandosi sulla colonna `customer_id`. Vengono inclusi nel risultato solo i clienti che hanno effettuato ordini. Il cliente 'David' (customer_id 106) è escluso perché non ha ordini.

Outer Join (Full Outer Join)

Un outer join restituisce tutte le righe di entrambi i DataFrame, incluse le righe non corrispondenti. Se una riga non ha una corrispondenza nell'altro DataFrame, le colonne corrispondenti conterranno valori `NaN` (Not a Number).

Esempio:

            # Outer Join
df_outer = pd.merge(df_orders, df_customers, on='customer_id', how='outer')
print(df_outer)

Output:

               order_id  customer_id  product_id  quantity customer_name    country
0       1.0          101         1.0       2.0         Alice        USA
1       2.0          102         2.0       1.0           Bob     Canada
2       3.0          103         1.0       3.0       Charlie         UK
3       4.0          104         3.0       1.0           NaN        NaN
4       5.0          105         2.0       2.0           NaN        NaN
5       NaN          106         NaN       NaN         David   Australia

L'outer join include tutti i clienti e tutti gli ordini. I clienti 104 e 105 hanno ordini ma nessuna informazione cliente, e il cliente 106 ha informazioni cliente ma nessun ordine. I valori mancanti sono rappresentati come `NaN`.

Left Join

Un left join restituisce tutte le righe del DataFrame di sinistra e le righe corrispondenti del DataFrame di destra. Se una riga nel DataFrame di sinistra non ha una corrispondenza nel DataFrame di destra, le colonne corrispondenti dal DataFrame di destra conterranno valori `NaN`.

Esempio:

            # Left Join
df_left = pd.merge(df_orders, df_customers, on='customer_id', how='left')
print(df_left)

Output:

               order_id  customer_id  product_id  quantity customer_name country
0         1          101           1         2         Alice     USA
1         2          102           2         1           Bob  Canada
2         3          103           1         3       Charlie      UK
3         4          104           3         1           NaN     NaN
4         5          105           2         2           NaN     NaN

Il left join include tutti gli ordini da `df_orders`. I clienti 104 e 105 hanno ordini ma nessuna informazione cliente, quindi le colonne `customer_name` e `country` sono `NaN` per quegli ordini.

Right Join

Un right join restituisce tutte le righe del DataFrame di destra e le righe corrispondenti del DataFrame di sinistra. Se una riga nel DataFrame di destra non ha una corrispondenza nel DataFrame di sinistra, le colonne corrispondenti dal DataFrame di sinistra conterranno valori `NaN`.

Esempio:

            # Right Join
df_right = pd.merge(df_orders, df_customers, on='customer_id', how='right')
print(df_right)

Output:

               order_id  customer_id  product_id  quantity customer_name    country
0       1.0          101         1.0       2.0         Alice        USA
1       2.0          102         2.0       1.0           Bob     Canada
2       3.0          103         1.0       3.0       Charlie         UK
3       NaN          106         NaN       NaN         David   Australia

Il right join include tutti i clienti da `df_customers`. Il cliente 106 ha informazioni cliente ma nessun ordine, quindi le colonne `order_id`, `product_id` e `quantity` sono `NaN` per quel cliente.

Join di DataFrame con `df.join()`

Il metodo `df.join()` è utilizzato principalmente per unire i DataFrame basandosi sui loro indici. Può anche essere utilizzato per unire su colonne, ma è tipicamente più conveniente usare `pd.merge()` per join basati su colonne.

Sintassi

DataFrame.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)

Parametri

other: L'altro DataFrame da unire.
on: Nome della colonna su cui unire. Deve essere passato se l'indice non è usato come chiave di join.
how: Come gestire l'operazione dei set di sinistra e destra. Il valore predefinito è 'left'.
lsuffix: Suffisso da usare dal DataFrame di sinistra per sovrascrivere i nomi delle colonne sovrapposte.
rsuffix: Suffisso da usare dal DataFrame di destra per sovrascrivere i nomi delle colonne sovrapposte.
sort: Ordina il DataFrame risultante lessicograficamente in base alle chiavi di join. Il valore predefinito è False.

Unione sull'Indice

Quando si esegue il join sull'indice, il parametro `on` non viene utilizzato.

Esempio:

            # DataFrame 1: Customer Orders with Customer ID as Index
df_orders_index = df_orders.set_index('customer_id')

# DataFrame 2: Customer Information with Customer ID as Index
df_customers_index = df_customers.set_index('customer_id')

# Join on Index (Left Join)
df_join_index = df_orders_index.join(df_customers_index, how='left')
print(df_join_index)

Output:

               order_id  product_id  quantity customer_name country
customer_id                                        
101                 1           1         2         Alice     USA
102                 2           2         1           Bob  Canada
103                 3           1         3       Charlie      UK
104                 4           3         1           NaN     NaN
105                 5           2         2           NaN     NaN

In questo esempio, il metodo `join()` viene utilizzato per eseguire un left join sull'indice (`customer_id`). Il risultato è simile al left join usando `pd.merge()`, ma il join si basa sull'indice piuttosto che su una colonna.

Unione su Colonna

Per eseguire un join su una colonna usando `df.join()`, è necessario specificare il parametro `on`.

Esempio:

            # Joining on a column
df_join_column = df_orders.join(df_customers.set_index('customer_id'), on='customer_id', how='left')
print(df_join_column)

Output:

               order_id  customer_id  product_id  quantity customer_name country
0         1          101           1         2         Alice     USA
1         2          102           2         1           Bob  Canada
2         3          103           1         3       Charlie      UK
3         4          104           3         1           NaN     NaN
4         5          105           2         2           NaN     NaN

Questo esempio dimostra il join di `df_orders` con `df_customers` usando la colonna `customer_id`. Si noti che `customer_id` è impostato come indice in `df_customers` prima di eseguire il join.

Gestione delle Colonne Sovrapposte

Quando si uniscono o si fanno join di DataFrame, è comune incontrare nomi di colonne sovrapposti (colonne con lo stesso nome in entrambi i DataFrame). Pandas fornisce il parametro `suffixes` in `pd.merge()` e i parametri `lsuffix` e `rsuffix` in `df.join()` per gestire queste situazioni.

Utilizzo di `suffixes` in `pd.merge()`

Il parametro `suffixes` consente di specificare suffissi che verranno aggiunti ai nomi delle colonne sovrapposte per distinguerle.

Esempio:

            # DataFrame 1: Product Information
df_products1 = pd.DataFrame({
 'product_id': [1, 2, 3],
 'product_name': ['Product A', 'Product B', 'Product C'],
 'price': [10, 20, 15]
})

# DataFrame 2: Product Information (with potentially updated prices)
df_products2 = pd.DataFrame({
 'product_id': [1, 2, 4],
 'product_name': ['Product A', 'Product B', 'Product D'],
 'price': [12, 18, 25]
})

# Merge with suffixes
df_merged_suffixes = pd.merge(df_products1, df_products2, on='product_id', suffixes=('_old', '_new'))
print(df_merged_suffixes)

Output:

               product_id product_name_old  price_old product_name_new  price_new
0           1      Product A         10       Product A         12
1           2      Product B         20       Product B         18

In questo esempio, le colonne `product_name` e `price` sono presenti in entrambi i DataFrame. Il parametro `suffixes` aggiunge i suffissi `_old` e `_new` per distinguere le colonne dei DataFrame di sinistra e di destra, rispettivamente.

Utilizzo di `lsuffix` e `rsuffix` in `df.join()`

I parametri `lsuffix` e `rsuffix` forniscono funzionalità simili per `df.join()`. `lsuffix` viene aggiunto alle colonne sovrapposte del DataFrame di sinistra, e `rsuffix` a quelle del DataFrame di destra.

Esempio:

            # Join with lsuffix and rsuffix
df_products1_index = df_products1.set_index('product_id')
df_products2_index = df_products2.set_index('product_id')
df_joined_suffixes = df_products1_index.join(df_products2_index, lsuffix='_old', rsuffix='_new', how='outer')
print(df_joined_suffixes)

Output:

                      product_name_old  price_old product_name_new  price_new
product_id                                                     
1                 Product A       10.0        Product A       12.0
2                 Product B       20.0        Product B       18.0
3                 Product C       15.0            NaN        NaN
4                       NaN        NaN        Product D       25.0

Esempi Pratici e Casi d'Uso

L'unione e il join di DataFrame sono ampiamente utilizzati in vari scenari di analisi dei dati. Ecco alcuni esempi pratici:

Combinare Dati di Vendita con Informazioni sui Prodotti

Un caso d'uso comune è combinare i dati di vendita con le informazioni sui prodotti. Supponiamo di avere un DataFrame contenente le transazioni di vendita e un altro DataFrame contenente i dettagli dei prodotti. È possibile unire questi DataFrame per arricchire i dati di vendita con le informazioni sui prodotti.

Esempio:

            # Sales Transactions Data
df_sales = pd.DataFrame({
 'transaction_id': [1, 2, 3, 4, 5],
 'product_id': [101, 102, 103, 101, 104],
 'quantity': [2, 1, 3, 1, 2],
 'sales_date': ['2023-01-15', '2023-02-20', '2023-03-10', '2023-04-05', '2023-05-01']
})

# Product Information Data
df_products = pd.DataFrame({
 'product_id': [101, 102, 103, 104],
 'product_name': ['Laptop', 'Mouse', 'Keyboard', 'Monitor'],
 'category': ['Electronics', 'Electronics', 'Electronics', 'Electronics'],
 'price': [1200, 25, 75, 300]
})

# Merge Sales Data with Product Information
df_sales_enriched = pd.merge(df_sales, df_products, on='product_id', how='left')
print(df_sales_enriched)

Output:

               transaction_id  product_id  quantity sales_date product_name     category   price
0               1         101         2   2023-01-15       Laptop  Electronics  1200
1               2         102         1   2023-02-20        Mouse  Electronics    25
2               3         103         3   2023-03-10     Keyboard  Electronics    75
3               4         101         1   2023-04-05       Laptop  Electronics  1200
4               5         104         2   2023-05-01      Monitor  Electronics   300

Il DataFrame risultante `df_sales_enriched` contiene le transazioni di vendita insieme alle informazioni corrispondenti sui prodotti, consentendo un'analisi più dettagliata delle tendenze di vendita e delle prestazioni dei prodotti.

Combinare Dati Cliente con Informazioni Demografiche

Un altro caso d'uso comune è combinare i dati dei clienti con le informazioni demografiche. Ciò consente di analizzare il comportamento dei clienti in base a fattori demografici.

Esempio:

            # Customer Data
df_customers = pd.DataFrame({
 'customer_id': [1, 2, 3, 4, 5],
 'customer_name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
 'city': ['New York', 'London', 'Tokyo', 'Sydney', 'Berlin']
})

# Demographic Information Data
df_demographics = pd.DataFrame({
 'city': ['New York', 'London', 'Tokyo', 'Sydney', 'Berlin'],
 'population': [8419000, 8982000, 13960000, 5312000, 3769000],
 'average_income': [75000, 65000, 85000, 90000, 55000]
})

# Merge Customer Data with Demographic Information
df_customer_demographics = pd.merge(df_customers, df_demographics, on='city', how='left')
print(df_customer_demographics)

Output:

               customer_id customer_name      city  population  average_income
0            1         Alice  New York     8419000           75000
1            2           Bob    London     8982000           65000
2            3       Charlie     Tokyo    13960000           85000
3            4         David    Sydney     5312000           90000
4            5           Eve    Berlin     3769000           55000

Il DataFrame risultante `df_customer_demographics` contiene i dati dei clienti insieme alle informazioni demografiche per le rispettive città, consentendo l'analisi del comportamento dei clienti in base alle demografie della città.

Analizzare i Dati della Catena di Fornitura Globale

L'unione con Pandas è preziosa per analizzare i dati della catena di fornitura globale, dove le informazioni sono spesso sparse su più tabelle. Ad esempio, il collegamento di dati sui fornitori, informazioni di spedizione e cifre di vendita può rivelare colli di bottiglia e ottimizzare la logistica.

Esempio:

            # Supplier Data
df_suppliers = pd.DataFrame({
 'supplier_id': [1, 2, 3],
 'supplier_name': ['GlobalTech', 'EuroParts', 'AsiaSource'],
 'location': ['Taiwan', 'Germany', 'China']
})

# Shipping Data
df_shipments = pd.DataFrame({
 'shipment_id': [101, 102, 103, 104],
 'supplier_id': [1, 2, 3, 1],
 'destination': ['USA', 'Canada', 'Australia', 'Japan'],
 'shipment_date': ['2023-01-10', '2023-02-15', '2023-03-20', '2023-04-25']
})


# Merge Supplier and Shipment Data
df_supply_chain = pd.merge(df_shipments, df_suppliers, on='supplier_id', how='left')

print(df_supply_chain)

Output:

               shipment_id  supplier_id destination shipment_date supplier_name location
0          101            1         USA    2023-01-10     GlobalTech   Taiwan
1          102            2      Canada    2023-02-15      EuroParts  Germany
2          103            3   Australia    2023-03-20     AsiaSource    China
3          104            1       Japan    2023-04-25     GlobalTech   Taiwan

Tecniche di Unione Avanzate

Unione su Più Colonne

È possibile unire i DataFrame basandosi su più colonne passando un elenco di nomi di colonne al parametro `on`.

Esempio:

            # DataFrame 1
df1 = pd.DataFrame({
 'product_id': [1, 1, 2, 2],
 'color': ['red', 'blue', 'red', 'blue'],
 'quantity': [10, 15, 20, 25]
})

# DataFrame 2
df2 = pd.DataFrame({
 'product_id': [1, 1, 2, 2],
 'color': ['red', 'blue', 'red', 'blue'],
 'price': [5, 7, 8, 10]
})

# Merge on multiple columns
df_merged_multiple = pd.merge(df1, df2, on=['product_id', 'color'], how='inner')
print(df_merged_multiple)

Output:

               product_id color  quantity  price
0           1   red        10      5
1           1  blue        15      7
2           2   red        20      8
3           2  blue        25     10

Unione con Nomi di Colonna Diversi

Se le colonne di join hanno nomi diversi nei due DataFrame, è possibile utilizzare i parametri `left_on` e `right_on` per specificare i nomi delle colonne da utilizzare per l'unione.

Esempio:

            # DataFrame 1
df1 = pd.DataFrame({
 'product_id': [1, 2, 3],
 'product_name': ['Product A', 'Product B', 'Product C']
})

# DataFrame 2
df2 = pd.DataFrame({
 'id': [1, 2, 4],
 'price': [10, 20, 25]
})

# Merge with different column names
df_merged_different = pd.merge(df1, df2, left_on='product_id', right_on='id', how='left')
print(df_merged_different)

Output:

               product_id product_name   id   price
0           1    Product A  1.0    10.0
1           2    Product B  2.0    20.0
2           3    Product C  NaN     NaN

Utilizzo di `indicator` per l'Analisi del Merge

Il parametro `indicator` in `pd.merge()` aggiunge una colonna denominata `_merge` al DataFrame risultante, indicando la fonte di ogni riga. Questo è utile per capire quali righe sono state abbinate e quali no.

Esempio:

            # Merge with indicator
df_merged_indicator = pd.merge(df_orders, df_customers, on='customer_id', how='outer', indicator=True)
print(df_merged_indicator)

Output:

               order_id  customer_id  product_id  quantity customer_name    country      _merge
0       1.0          101         1.0       2.0         Alice        USA        both
1       2.0          102         2.0       1.0           Bob     Canada        both
2       3.0          103         1.0       3.0       Charlie         UK        both
3       4.0          104         3.0       1.0           NaN        NaN   left_only
4       5.0          105         2.0       2.0           NaN        NaN   left_only
5       NaN          106         NaN       NaN         David   Australia  right_only

La colonna `_merge` indica se la riga proviene da entrambi i DataFrame (`both`), solo dal DataFrame di sinistra (`left_only`) o solo dal DataFrame di destra (`right_only`).

Validazione dei Tipi di Merge

Il parametro `validate` assicura che l'operazione di merge si allinei ai tipi di relazione attesi tra i DataFrame (ad esempio, 'one_to_one', 'one_to_many'). Ciò aiuta a prevenire incoerenze e errori nei dati.

Esempio:

            # Example with one-to-one validation
df_users = pd.DataFrame({
 'user_id': [1, 2, 3],
 'username': ['john_doe', 'jane_smith', 'peter_jones']
})

df_profiles = pd.DataFrame({
 'user_id': [1, 2, 3],
 'profile_description': ['Software Engineer', 'Data Scientist', 'Project Manager']
})

# Performing a one-to-one merge with validation
merged_df = pd.merge(df_users, df_profiles, on='user_id', validate='one_to_one')

print(merged_df)

Se l'unione viola la validazione specificata (ad esempio, una relazione molti-a-uno quando è specificato 'one_to_one'), verrà sollevato un `MergeError`, avvisando di potenziali problemi di integrità dei dati.

Considerazioni sulle Prestazioni

L'unione e il join di DataFrame possono essere computazionalmente costosi, specialmente per dataset di grandi dimensioni. Ecco alcuni suggerimenti per migliorare le prestazioni:

Usa il tipo di join appropriato: Scegliere il tipo di join corretto può influire significativamente sulle prestazioni. Ad esempio, se hai bisogno solo di righe corrispondenti, usa un inner join.
Indicizza le colonne di join: L'indicizzazione delle colonne di join può velocizzare il processo di unione.
Usa tipi di dati appropriati: Assicurati che le colonne di join abbiano tipi di dati compatibili.
Evita copie non necessarie: Imposta `copy=False` in `pd.merge()` e `df.join()` per evitare di creare copie non necessarie dei dati.

Conclusione

L'unione e il join di DataFrame sono operazioni fondamentali nell'analisi dei dati. Comprendendo i diversi tipi e tecniche di join, puoi combinare e analizzare efficacemente i dati da varie fonti, sbloccando preziose intuizioni e guidando decisioni informate. Dalla combinazione dei dati di vendita con le informazioni sui prodotti all'analisi delle catene di fornitura globali, padroneggiare queste tecniche ti consentirà di affrontare compiti complessi di manipolazione dei dati con fiducia. Ricorda di considerare le implicazioni sulle prestazioni quando lavori con grandi dataset e di sfruttare funzionalità avanzate come i parametri `indicator` e `validate` per un'analisi più robusta e approfondita.